MiX Knowledge

将扩散模型提炼为条件 GAN

分类： 计算机视觉和模式识别, 图形, 机器学习

作者： Minguk Kang, Richard Zhang, Connelly Barnes, Sylvain Paris, Suha Kwak, Jaesik Park, Eli Shechtman, Jun-Yan Zhu, Taesung Park

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05967v1

摘要： 我们提出了一种将复杂的多步扩散模型提炼为单步条件 GAN 学生模型的方法，从而显着加速推理，同时保持图像质量。我们的方法将扩散蒸馏解释为配对图像到图像转换任务，使用扩散模型 ODE 轨迹的噪声到图像对。为了有效计算回归损失，我们提出了 E-LatentLPIPS，这是一种利用增强集合直接在扩散模型的潜在空间中运行的感知损失。此外，我们采用扩散模型来构建具有文本对齐损失的多尺度鉴别器，以构建有效的基于条件 GAN 的公式。 E-LatentLPIPS 比许多现有的蒸馏方法更有效地收敛，甚至考虑到数据集构建成本。我们证明，我们的一步生成器在零样本 COCO 基准上优于尖端的一步扩散蒸馏模型（DMD、SDXL-Turbo 和 SDXL-Lightning）。

通过扩散过程和插补-插值-预测掩模进行时间序列表示的自监督学习

分类： 机器学习, 人工智能, G.3; I.6.5; I.2.4

作者： Zineb Senane, Lele Cao, Valentin Leonhard Buchner, Yusuke Tashiro, Lei You, Pawel Herman, Mats Nordahl, Ruibo Tu, Vilhelm von Ehrenheim

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05959v1

摘要： 时间序列表示学习 (TSRL) 专注于为各种时间序列 (TS) 建模任务生成信息表示。 TSRL 中的传统自监督学习 (SSL) 方法分为四大类：重建法、对抗性法、对比法和预测法，每种方法都面临着对噪声和复杂数据细微差别敏感的共同挑战。最近，基于扩散的方法显示出了先进的生成能力。然而，它们主要针对特定的应用场景，例如插补和预测，在利用通用 TSRL 的扩散模型方面存在差距。我们的工作时间序列扩散嵌入 (TSDE) 作为第一个基于扩散的 SSL TSRL 方法弥补了这一差距。 TSDE 使用插补-插值-预测 (IIF) 掩码将 TS 数据分割为观察部分和掩码部分。它将可训练的嵌入函数（具有带有交叉机制的双正交 Transformer 编码器）应用于观察部分。我们训练以嵌入为条件的反向扩散过程，旨在预测添加到屏蔽部分的噪声。大量的实验证明了 TSDE 在插补、插值、预测、异常检测、分类和聚类方面的优越性。我们还进行了消融研究，呈现嵌入可视化，并比较推理速度，进一步证实了 TSDE 在学习 TS 数据表示方面的效率和有效性。

具有连续布朗桥扩散的帧插值

分类： 计算机视觉和模式识别

作者： Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05953v1

摘要： 视频帧插值 (VFI) 领域的最新工作尝试将 VFI 表述为基于扩散的条件图像生成问题，在给定随机噪声和相邻帧的情况下合成中间帧。由于视频的分辨率相对较高，因此采用潜在扩散模型（LDM）作为条件生成模型，其中自动编码器将图像压缩为潜在表示进行扩散，然后从这些潜在表示重建图像。这样的公式提出了一个关键的挑战：VFI 期望输出确定性地等于地面实况中间帧，但当模型多次运行时，LDM 会随机生成一组不同的不同图像。产生多样化的原因是 LDM 中生成的潜在表示的累积方差（在生成的每个步骤中累积的方差）很大。这使得采样轨迹变得随机，从而产生多样化的而不是确定性的世代。为了解决这个问题，我们提出了独特的解决方案：连续布朗桥扩散帧插值。具体来说，我们提出连续布朗桥扩散，它将确定性初始值作为输入，从而导致生成的潜在表示的累积方差更小。我们的实验表明，我们的方法可以随着自动编码器的改进而改进，并在 VFI 中实现最先进的性能，为进一步增强留下了巨大的潜力。

Lumina-T2X：通过基于流的大型扩散变压器将文本转换为任何形态、分辨率和持续时间

分类： 计算机视觉和模式识别

作者： Peng Gao, Le Zhuo, Ziyi Lin, Chris Liu, Junsong Chen, Ruoyi Du, Enze Xie, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05945v1

摘要： Sora 揭示了缩放 Diffusion Transformer 的潜力，可以以任意分辨率、长宽比和持续时间生成逼真的图像和视频，但它仍然缺乏足够的实现细节。在本技术报告中，我们介绍了 Lumina-T2X 系列 - 一系列配备零初始化注意力的基于流的大型扩散变压器（Flag-DiT），作为一个统一的框架，旨在将噪声转换为图像、视频、多视图3D 对象和根据文本指令调节的音频剪辑。通过标记潜在的时空空间并结合可学习的占位符（例如 [nextline] 和 [nextframe] 标记），Lumina-T2X 无缝地统一了跨各种时空分辨率的不同模态的表示。这种统一的方法可以在单一框架内针对不同模态进行训练，并允许在推理过程中灵活生成任何分辨率、长宽比和长度的多模态数据。 RoPE、RMSNorm 和流匹配等先进技术增强了 Flag-DiT 的稳定性、灵活性和可扩展性，使 Lumina-T2X 的模型能够扩展到多达 70 亿个参数，并将上下文窗口扩展到 128K 个令牌。这对于使用我们的 Lumina-T2I 型号创建超高清图像以及使用我们的 Lumina-T2V 型号创建 720p 长视频特别有利。值得注意的是，由 50 亿参数 Flag-DiT 提供支持的 Lumina-T2I 所需的训练计算成本仅为 6 亿参数 naive DiT 的 35%。我们进一步的综合分析强调了 Lumina-T2X 在分辨率外推、高分辨率编辑、生成一致的 3D 视图以及无缝过渡合成视频方面的初步能力。我们预计 Lumina-T2X 的开源将进一步促进生成式 AI 社区的创造力、透明度和多样性。

基于可组合部件的操作

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Weiyu Liu, Jiayuan Mao, Joy Hsu, Tucker Hermans, Animesh Garg, Jiajun Wu

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05876v1

摘要： 在本文中，我们提出了可组合的基于部分的操作（CPM），这是一种利用对象部分分解和部分对应来提高机器人操作技能的学习和泛化的新颖方法。通过考虑对象部件之间的功能对应关系，我们将功能动作（例如浇注和约束放置）概念化为不同对应约束的组合。 CPM 包含可组合扩散模型的集合，其中每个模型捕获不同的对象间对应关系。这些扩散模型可以根据特定的物体部分生成操作技能的参数。利用基于部分的对应关系以及将任务分解为不同的约束，可以对新颖的对象和对象类别进行强泛化。我们在模拟和现实场景中验证了我们的方法，证明了其在实现稳健和通用操作能力方面的有效性。

通过设定值调节不确定反应扩散方程的参数识别

分类： 优化与控制, 系统与控制, 系统与控制, 动力系统

作者： Gildas Besançon, Andrea Cristofaro, Francesco Ferrante

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05866v1

摘要： 解决了估计由反应扩散偏微分方程控制的系统的反应系数的问题。提出了一种仅依赖于边界测量的估计器。该估计器基于设定点调节策略，并导致未知反应系数的渐近收敛估计。所提出的估计器与状态观测器相结合，并显示可提供实际系统状态的渐近估计。数值例子支持并说明了理论结果。

预训练的文本到图像扩散模型是用于控制的多功能表示学习器

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术, 机器学习

作者： Gunshi Gupta, Karmesh Yadav, Yarin Gal, Dhruv Batra, Zsolt Kira, Cong Lu, Tim G. J. Rudner

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05852v1

摘要： 具身人工智能代理需要对通过视觉和语言输入介导的物理世界有精细的理解。仅从特定于任务的数据很难学习此类功能。这导致了预训练视觉语言模型的出现，作为一种工具，将从互联网规模的数据中学习到的表示转移到下游任务和新领域。然而，常用的对比训练表示（例如 CLIP 中的表示）已被证明无法使具体代理获得足够细粒度的场景理解，而这种理解对于控制至关重要。为了解决这个缺点，我们考虑预先训练的文本到图像扩散模型的表示，这些模型经过显式优化以根据文本提示生成图像，因此包含反映高度细粒度的视觉空间信息的文本条件表示。使用预先训练的文本到图像扩散模型，我们构建了稳定的控制表示，它允许学习泛化到复杂的开放环境的下游控制策略。我们表明，使用稳定控制表示学习的策略在广泛的模拟控制设置（包括具有挑战性的操纵和导航任务）中与最先进的表示学习方法具有竞争力。最值得注意的是，我们表明稳定控制表示使学习策略能够在 OVMM（一个困难的开放词汇导航基准）上展现出最先进的性能。

可以生成吗？文本到图像扩散模型中记忆的实际分析

分类： 密码学和安全, 计算机视觉和模式识别

作者： Zhe Ma, Xuhong Zhang, Qingming Li, Tianyu Du, Wenzhi Chen, Zonghui Wang, Shouling Ji

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05846v1

摘要： 在过去的几年里，由扩散模型驱动的文本引导图像生成取得了巨大进步。然而，研究表明，文本到图像的扩散模型容易受到训练图像记忆的影响，引发了对侵犯版权和侵犯隐私的担忧。在这项工作中，我们对文本到图像扩散模型中的记忆进行了实际分析。针对一组需要保护的图像，我们对其进行定量分析，无需收集任何提示。具体来说，我们首先正式定义图像的记忆，并确定记忆的三个必要条件，分别是相似性、存在性和概率。然后，我们揭示了模型的预测误差和图像复制之间的相关性。基于相关性，我们建议利用反演技术来验证目标图像的记忆安全性并测量它们的记忆程度。模型开发人员可以利用我们的分析方法来发现记忆的图像或可靠地声称对记忆的安全性。对稳定扩散（一种流行的开源文本到图像扩散模型）的大量实验证明了我们分析方法的有效性。

MSDiff：用于超稀疏视图 CT 重建的多尺度扩散模型

分类： 图像和视频处理, 计算机视觉和模式识别

作者： Pinhuang Tan, Mengxiao Geng, Jingya Lu, Liu Shi, Bin Huang, Qiegen Liu

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05814v1

摘要： 计算机断层扫描（CT）技术通过稀疏采样减少对人体的辐射危害，但较少的采样角度给图像重建带来了挑战。基于评分的生成模型广泛应用于稀疏视图 CT 重建，但随着投影角度的急剧减小，性能显着下降。因此，我们提出了一种利用多尺度扩散融合模型（MSDiff）的超稀疏视图CT重建方法，旨在集中信息的全局分布并促进具有局部图像特征的稀疏视图的重建。具体来说，所提出的模型巧妙地集成了综合采样和选择性稀疏采样技术的信息。通过对扩散模型的精确调整，能够提取多样化的噪声分布，进一步加深对图像整体结构的理解，帮助全采样模型更有效地恢复图像信息。通过利用投影数据中的固有相关性，我们设计了一个等距掩模，使模型能够更有效地集中注意力。实验结果表明，多尺度模型方法显着提高了超稀疏角度下的图像重建质量，并且在各种数据集上具有良好的泛化性。

MasterWeaver：驯服可编辑性和身份以生成个性化文本到图像

分类： 计算机视觉和模式识别

作者： Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Lei Zhang, Wangmeng Zuo

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05806v1

摘要： 文本到图像（T2I）扩散模型在个性化文本到图像生成方面取得了巨大成功，其目的是生成具有由参考图像指示的人类身份的新颖图像。尽管通过几种免调整方法已经实现了有前途的身份保真度，但它们通常会遇到过度拟合问题。学习到的身份往往会与不相关的信息纠缠在一起，导致文本可控性不满意，尤其是在面部上。在这项工作中，我们提出了 MasterWeaver，这是一种无需测试时调整的方法，旨在生成具有忠实身份保真度和灵活可编辑性的个性化图像。具体来说，MasterWeaver 采用编码器来提取身份特征，并通过额外引入的交叉注意力来引导图像生成。为了在保持身份保真度的同时提高可编辑性，我们提出了一种训练编辑方向损失，它将 MasterWeaver 的编辑方向与原始 T2I 模型的编辑方向保持一致。此外，还构建了面部增强数据集，以促进解开的身份学习，并进一步提高可编辑性。大量的实验表明，我们的MasterWeaver不仅可以生成具有忠实身份的个性化图像，而且在文本可控性方面也表现出优越性。我们的代码将在 https://github.com/csyxwei/MasterWeaver 上公开提供。

Diffusion-HMC：利用扩散模型驱动的哈密顿蒙特卡罗进行参数推断

分类： 宇宙学和非银河系天体物理学, 机器学习

作者： Nayantara Mudur, Carolina Cuesta-Lazaro, Douglas P. Finkbeiner

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05255v1

摘要： 扩散生成模型在跨领域的各种图像生成和重建任务中表现出色。一个较少探索的途径是将它们应用于涉及回归或分类问题的判别任务。现代宇宙学的基石是能够从理论中对观测到的天体物理场进行预测，并利用这些预测来约束观测中的物理模型。这项工作使用单个扩散生成模型来解决这些相互关联的目标——作为以输入宇宙学参数为条件的冷暗物质密度场的替代模型或模拟器，以及作为解决约束宇宙学参数的逆问题的参数推断模型。输入字段。该模型能够模拟具有与模拟目标分布一致的汇总统计数据的字段。然后，我们利用扩散生成模型的近似似然，通过使用哈密顿蒙特卡罗方法对给定测试图像的宇宙学参数的后验进行采样，得出对宇宙学的严格约束。最后，我们证明这种参数推断方法对于添加噪声比基线参数推断网络更稳健。

注意力驱动的免训练扩散模型效率提升

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理, 信号处理

作者： Hongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05252v1

摘要： 扩散模型（DM）在生成高质量和多样化的图像方面表现出了卓越的性能。然而，这种卓越的性能是以昂贵的架构设计为代价的，特别是由于领先模型中大量使用了注意力模块。现有的工作主要采用再训练过程来提高DM效率。这在计算上是昂贵的并且不太可扩展。为此，我们引入了注意力驱动的免训练高效扩散模型（AT-EDM）框架，该框架利用注意力图来执行冗余标记的运行时修剪，而不需要任何重新训练。具体来说，对于单去噪步骤修剪，我们开发了一种新颖的排名算法，即广义加权页面排名（G-WPR）来识别冗余标记，以及一种基于相似性的恢复方法来恢复卷积运算的标记。此外，我们提出了一种去噪步骤感知修剪（DSAP）方法来调整不同去噪时间步长的修剪预算，以获得更好的生成质量。广泛的评估表明，AT-EDM 在效率方面优于现有技术（例如，与 Stable Diffusion XL 相比，FLOPs 节省了 38.8%，加速高达 1.53 倍），同时保持与完整模型几乎相同的 FID 和 CLIP 分数。项目网页：https://atedm.github.io。

Imagine Flash：通过逆向蒸馏加速鸸鹋扩散模型

分类： 计算机视觉和模式识别

作者： Jonas Kohler, Albert Pumarola, Edgar Schönfeld, Artsiom Sanakoyeu, Roshan Sumbaly, Peter Vajda, Ali Thabet

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05224v1

摘要： 扩散模型是一个强大的生成框架，但推理成本很高。当在极低步长状态下运行时，现有的加速方法通常会损害图像质量或在复杂条件下失败。在这项工作中，我们提出了一种新颖的蒸馏框架，只需一到三个步骤即可生成高保真、多样化的样本。我们的方法包括三个关键组成部分：（i）向后蒸馏，通过在学生自己的向后轨迹上校准学生来减轻训练推理差异； (ii) Shifted Reconstruction Loss，根据当前时间步长动态调整知识转移； (iii) 噪声校正，一种推理时间技术，通过解决噪声预测中的奇点来提高样本质量。通过大量的实验，我们证明我们的方法在定量指标和人类评估方面优于现有的竞争对手。值得注意的是，它仅使用三个去噪步骤即可实现与教师模型相当的性能，从而实现高效的高质量生成。

FinePOSE：通过扩散模型进行细粒度提示驱动的 3D 人体姿势估计

分类： 计算机视觉和模式识别

作者： Jinglin Xu, Yijie Guo, Yuxin Peng

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05216v1

摘要： 3D 人体姿势估计 (3D HPE) 任务使用 2D 图像或视频来预测 3D 空间中的人体关节坐标。尽管基于深度学习的方法最近取得了进展，但它们大多忽略了将可访问的文本与人类自然可行的知识相结合的能力，错过了指导 3D HPE 任务的宝贵的隐式监督。而且，以前的努力经常从整个人体的角度来研究这项任务，忽略了隐藏在不同身体部位的细粒度指导。为此，我们提出了一种基于 3D HPE 扩散模型的新细粒度提示驱动降噪器，名为 \textbf{FinePOSE}。它由三个核心模块组成，增强了扩散模型的逆过程：（1）细粒度零件感知提示学习（FPP）模块通过将可访问的文本和自然可行的身体部位知识与可学习的提示来模拟隐性指导。（2）细粒度提示姿势通信（FPC）块在学习的零件感知提示和姿势之间建立细粒度的通信，以提高去噪质量。 (3) 提示驱动的时间戳风格化 (PTS) 块集成了学习到的提示嵌入和与噪声级别相关的时间信息，以便在每个去噪步骤中实现自适应调整。对公共单人姿势估计数据集的大量实验表明，FinePOSE 的性能优于最先进的方法。我们进一步将 FinePOSE 扩展到多人姿势估计。在 EgoHumans 数据集上实现 34.3 毫米的平均 MPJPE 证明了 FinePOSE 处理复杂的多人场景的潜力。代码可在 https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024 获取。

使用 GPU 加速的自适应有限元多重网格求解器

分类： 数值分析, 数值分析

作者： Manuel Liebchen, Utku Kaya, Christian Lessig, Thomas Richter

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05047v1

摘要： 自适应有限元与几何多重网格求解器相结合是解决诸如稳态纳维-斯托克斯方程等问题的最有效的数值方法之一。然而，尽管它们效率很高，但计算仍然昂贵，并且复杂流动问题的模拟可能需要数小时或数天的时间。 GPU 提供了一种有趣的途径来加速计算，因为它们具有非常大的理论峰值性能。然而，大程度的并行性和非标准 API 使得 GPU 在科学计算中的使用具有挑战性。在这项工作中，我们为自适应有限元库 Gascoigne 开发了 GPU 加速，并研究了其对于不同偏微分方程组的有效性。通过将所有计算系统地表述为线性代数运算，我们可以使用 GPU 加速的线性代数库，从而简化实现并确保代码的可维护性，同时实现非常高效的 GPU 利用率。我们的传输扩散方程、线性弹性和稳态纳维-斯托克斯方程的结果显示，与多核 CPU 实现相比，速度大幅提升高达 20 倍。

回顾智能电影摄影：基于摄像机的视频制作的人工智能研究

分类： 计算机视觉和模式识别, 多媒体

作者： Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05039v1

摘要： 本文对用于娱乐目的的真实摄像机内容获取背景下的人工智能 (AI) 研究进行了全面回顾，面向研究人员和电影摄影师。考虑到计算机视觉研究的广度以及缺乏与智能电影摄影 (IC) 相关的评论论文，这篇评论介绍了 IC 领域的整体观点，同时为跨学科的专家提供了技术见解。我们以生成式 AI、对象检测、自动相机校准和 3D 内容获取的技术背景作为主要讨论的序言，并链接解释性文章以帮助非技术读者。主要讨论将作品分为四种制作类型：一般制作、虚拟制作、现场制作和空中制作。请注意，对于虚拟制作，我们不讨论与虚拟内容获取相关的研究，包括自动视频生成方面的工作，例如稳定扩散。在每个部分中，我们（1）按研究技术领域对工作进行细分 - 由各小节反映，以及（2）评估每种生产类型的趋势和挑战。在最后一章中，我们对更大范围的 IC 研究提出了结论性意见，并概述了我们认为具有影响整个行业潜力的工作。我们发现，与虚拟制作相关的工作最有可能影响其他制作媒介，这是由于人们对用于机内虚拟效果 (ICVFX) 的 LED 体积/舞台以及用于真实场景虚拟建模的自动 3D 捕捉的兴趣日益浓厚所推动。世界场景和演员。这是第一篇对 IC 研究进行结构化和全面审查的文献。因此，我们解决了涉及艺术家、演员和公众的创意人工智能使用的道德和法律问题……

基于差异的脑 MRI 病变检测扩散模型

分类： 计算机视觉和模式识别, 人工智能

作者： Keqiang Fan, Xiaohao Cai, Mahesan Niranjan

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.04974v1

摘要： 扩散概率模型（DPM）在计算机视觉任务中表现出显着的有效性，特别是在图像生成方面。然而，它们的显着性能在很大程度上依赖于标记数据集，由于相关的高成本注释，这限制了它们在医学图像中的应用。当前用于医学成像中病变检测的 DPM 相关方法可分为两种不同的方法，主要依赖于图像级注释。第一种方法基于异常检测，涉及学习参考健康大脑表征并根据推理结果的差异识别异常。相比之下，第二种方法类似于分割任务，仅采用原始的大脑多模态作为先验信息来生成像素级注释。在本文中，我们提出的模型——差异分布医学扩散（DDMD）——用于脑 MRI 中的病变检测，通过结合独特的差异特征，引入了一种新颖的框架，偏离了传统上对图像级注释或原始大脑模式的直接依赖。在我们的方法中，图像级注释的不一致被转化为异质样本之间的分布差异，同时保留同质样本内的信息。此属性保留了像素级的不确定性，并有利于隐式整体分割，最终提高整体检测性能。在包含用于脑肿瘤检测的多模态 MRI 扫描的 BRATS2020 基准数据集上进行的彻底实验表明，与最先进的方法相比，我们的方法具有出色的性能。

用于社交推荐的双域协同去噪

分类： 信息检索, 社交和信息网络

作者： Wenjie Chen, Yi Zhang, Honghao Li, Lei Sang, Yiwen Zhang

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.04942v1

摘要： 社交推荐利用社交网络来补充推荐任务中的用户-项目交互数据，旨在缓解推荐系统中的数据稀疏问题。然而，现有的社交推荐方法面临以下挑战：社交网络和交互数据都包含大量噪声，而这些噪声通过图神经网络（GNN）传播不仅不能提高推荐性能，还可能干扰模型的正常训练。尽管去噪对于社交网络和交互数据很重要，但只有有限的研究考虑了社交网络的去噪，并且都忽略了交互数据的去噪，从而阻碍了去噪效果和推荐性能。基于此，我们提出了一种名为“社交推荐双域协作去噪”的新颖模型（$\textbf{DCDSR}$）。 DCDSR包括两个主要模块：结构级协同去噪模块和嵌入空间协同去噪模块。在结构级协同去噪模块中，首先利用交互域的信息来指导社交网络去噪。随后，使用去噪后的社交网络来监督交互数据的去噪。嵌入空间协同去噪模块致力于通过双域嵌入协同扰动的对比学习来抵抗噪声跨域扩散问题。此外，还引入了一种新颖的对比学习策略，名为 Anchor-InfoNCE，以更好地利用对比学习的去噪能力。在三个现实世界数据集上评估我们的模型，验证了 DCDSR 具有相当大的去噪效果，从而优于最先进的社交推荐方法。

利用人工智能生成的图形增强无线网络能力

分类： 网络和互联网架构

作者： Jiacheng Wang, Yinqiu Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Haibo Zhou, Dong In Kim

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.04907v1

摘要： 在无线通信中，将网络转化为图并使用图神经网络（GNN）等深度学习模型进行处理是主流的网络优化方法之一。生成式人工智能（GAI）在有效的同时，表现出比GNN等传统方法更强的图分析、处理和生成能力，为基于图的网络优化提供了更广阔的探索空间。因此，本文提出使用基于GAI的图生成来支持无线网络。具体来说，我们首先探索图在无线网络中的应用。然后，我们从图生成的角度对常见的GAI模型进行介绍和分析。在此基础上，我们提出了一个结合条件扩散模型和评估网络的框架，可以使用网络设计者和用户定制的奖励函数和条件进行训练。经过训练后，所提出的框架可以根据新条件创建图表，帮助解决用户在无线网络中指定的问题。最后，以集成传感与通信（ISAC）中的链路选择为例，验证了所提出框架的有效性。

使用条件扩散模型进行快速 LiDAR 上采样

分类： 计算机视觉和模式识别, 机器人技术

作者： Sander Elias Magnussen Helgesen, Kazuto Nakashima, Jim Tørresen, Ryo Kurazume

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.04889v1

摘要： 由于监督学习或基于生成模型的方法等最新技术，对精炼 3D LiDAR 数据的搜索引起了越来越多的兴趣。现有方法已经表明使用扩散模型生成高保真度的精细 LiDAR 数据的可能性，尽管此类方法的性能和速度受到限制。这些限制使得实时执行变得困难，导致这些方法在自主导航和人机交互等现实任务中陷入困境。在这项工作中，我们引入了一种基于条件扩散模型的新颖方法，用于通过图像表示对 3D 场景点云进行快速、高质量的稀疏到密集上采样。我们的方法采用使用条件修复掩模训练的去噪扩散概率模型，该模型已被证明可以在图像完成任务中提供高性能。我们引入了一系列实验，包括多个数据集、采样步骤和条件掩码，以确定理想的配置，在性能和推理速度之间取得平衡。本文说明，我们的方法在使用 KITTI-360 数据集的上采样任务中的采样速度和质量优于基线。此外，我们通过同时对现实世界和合成数据集进行训练，引入质量和环境的差异来说明我们方法的泛化能力。

触觉增强辐射场

分类： 计算机视觉和模式识别

作者： Yiming Dou, Fengyu Yang, Yi Liu, Antonio Loquercio, Andrew Owens

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04534v1

摘要： 我们提出了一种场景表示，称为触觉增强辐射场 (TaRF)，它将视觉和触觉带入共享的 3D 空间。该表示可用于估计场景内给定 3D 位置的视觉和触觉信号。我们从一组照片和稀疏采样的接触探针中捕获场景的 TaRF。我们的方法利用了两个见解：（i）常见的基于视觉的触摸传感器构建在普通相机上，因此可以使用多视图几何的方法将其注册到图像，以及（ii）场景共享的视觉和结构相似区域相同的触觉特征。我们利用这些见解将触摸信号注册到捕获的视觉场景，并训练条件扩散模型，该模型提供从神经辐射场渲染的 RGB-D 图像，生成其相应的触觉信号。为了评估我们的方法，我们收集了 TaRF 数据集。该数据集包含比以前的真实世界数据集更多的触摸样本，并且它为每个捕获的触摸信号提供空间对齐的视觉信号。我们展示了跨模式生成模型的准确性以及捕获的视觉触觉数据在几个下游任务中的实用性。项目页面：https://dou-yiming.github.io/TaRF

编辑你的运动：视频运动编辑的时空扩散解耦学习

分类： 计算机视觉和模式识别

作者： Yi Zuo, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Shuyuan Yang, Yuwei Guo

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04496v1

摘要： 现有的基于扩散的视频编辑方法在运动编辑方面取得了令人印象深刻的效果。大多数现有方法侧重于编辑视频和参考视频之间的运动对齐。然而，这些方法并没有约束视频的背景和物体内容保持不变，这使得用户有可能生成意想不到的视频。在本文中，我们提出了一种称为“编辑您的运动”的一次性视频运动编辑方法，该方法仅需要单个文本视频对进行训练。具体来说，我们设计了详细的提示引导学习策略（DPL）来解耦时空扩散模型中的时空特征。 DPL 将学习对象内容和运动分为两个训练阶段。在第一个训练阶段，我们专注于学习空间特征（对象内容的特征）并通过打乱视频帧来打破视频帧中的时间关系。我们进一步提出循环因果注意力（RC-Attn）来从无序视频帧中学习对象的一致内容特征。在第二个训练阶段，我们恢复视频帧中的时间关系以学习时间特征（背景和物体运动的特征）。我们还采用噪声约束损失来平滑帧间差异。最后，在推理阶段，我们通过两分支结构（编辑分支和重建分支）将源对象的内容特征注入到编辑分支中。通过Edit-Your-Motion，用户可以编辑源视频中物体的运动，以生成更精彩、更多样化的视频。综合定性实验、定量实验和用户偏好研究表明，Edit-Your-Motion 的性能优于其他方法。

学习具有粗糙系数的非线性椭圆偏微分方程的局部狄利克雷到诺依曼图

分类： 数值分析, 数值分析

作者： Miranda Boutilier, Konstantin Brenner, Larissa Miguez

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04433v1

摘要： 涉及高对比度和振荡系数的偏微分方程 (PDE) 在科学和工业应用中很常见。这些偏微分方程的数值近似是一项具有挑战性的任务，可以通过例如多尺度有限元分析来解决。对于线性问题，多尺度有限元方法 (MsFEM) 已经很成熟，并且已知一些对非线性偏微分方程的可行扩展。然而，该方法的某些特征似乎本质上是基于线性的。特别是，传统的 MsFEM 依赖于计算的重用。例如，刚度矩阵可以只计算一次，同时用于多个右侧，或者作为多级迭代算法的一部分。粗略地说，该方法的离线阶段相当于预组装局部线性狄利克雷到诺依曼（DtN）算子。我们提出了有关 MsFEM 与机器学习工具相结合的一些初步结果。通过学习局部非线性 DtN 图来实现 MsFEM 对非线性问题的扩展。由此产生的基于学习的多尺度方法在一组涉及$p-$拉普拉斯和简并非线性扩散的模型非线性偏微分方程上进行了测试。

异构多个社交网络的社区检测

分类： 社交和信息网络, 人工智能, 计算机与社会

作者： Ziqing Zhu, Guan Yuan, Tao Zhou, Jiuxin Cao

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04371v1

摘要： 社区在理解社交网络中的用户行为和网络特征方面发挥着至关重要的作用。一些用户可以出于多种目的同时使用多个社交网络。这些用户称为重叠用户，他们桥接不同的社交网络。跨多个社交网络检测社区对于网络间的交互挖掘、信息传播和行为迁移分析至关重要。本文提出了一种基于非负矩阵三因子分解的多个异构社交网络的社区检测方法，该方法制定了一个共同的共识矩阵来表示全局融合社区。具体来说，所提出的方法涉及基于网络结构和内容相似性创建邻接矩阵，然后是区分不同社交网络中重叠用户的对齐矩阵。利用生成的对齐矩阵，该方法可以通过检测跨网络的重叠用户社区来增强全球社区的融合程度。使用 Twitter、Instagram 和 Tumblr 数据集上的新指标评估所提出方法的有效性。实验结果证明了其在社区质量和社区融合方面的优越性能。

Diff-IP2D：自我中心视频上基于扩散的手部物体交互预测

分类： 计算机视觉和模式识别

作者： Junyi Ma, Jingyi Xu, Xieyuanli Chen, Hesheng Wang

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04370v1

摘要： 了解人类在手部物体交互过程中的行为对于服务机器人操作和扩展现实中的应用至关重要。为了实现这一目标，最近提出了一些工作来同时预测人类以自我为中心的视频上的手部轨迹和物体可供性。它们被视为未来手与物体交互的代表，表明潜在的人类运动和动机。然而，现有方法大多采用自回归范式进行单向预测，缺乏整体未来序列内的相互约束，并且沿时间轴累积误差。同时，这些工作基本上忽略了相机自我运动对第一人称视角预测的影响。为了解决这些限制，我们提出了一种新颖的基于扩散的交互预测方法，即 Diff-IP2D，以迭代非自回归方式同时预测未来的手部轨迹和对象可供性。我们将连续的 2D 图像转换为潜在特征空间，并设计一个去噪扩散模型来预测以过去的潜在交互特征为条件的未来潜在交互特征。运动特征进一步集成到条件降噪过程中，使 Diff-IP2D 能够了解相机佩戴者的动态，从而实现更准确的交互预测。实验结果表明，我们的方法在现成的指标和我们提出的新评估协议方面都显着优于最先进的基线。这凸显了利用生成范式进行 2D 手部物体交互预测的有效性。 Diff-IP2D的代码将在https://github.com/IRMVLab/Diff-IP2D发布。

用于多模态人脸图像生成的扩散驱动的 GAN 反演

分类： 计算机视觉和模式识别

作者： Jihyun Kim, Changjae Oh, Hoseok Do, Soohyun Kim, Kwanghoon Sohn

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04356v1

摘要： 我们提出了一种新的多模态人脸图像生成方法，可将文本提示和视觉输入（例如语义掩模或涂鸦图）转换为逼真的人脸图像。为此，我们将生成对抗网络 (GAN) 和扩散模型 (DM) 的优势结合起来，将 DM 中的多模态特征运用到预训练 GAN 的潜在空间中。我们提出了一个简单的映射和一个风格调制网络来链接两个模型，并将特征图和注意力图中有意义的表示转换为潜在代码。通过 GAN 反演，估计的潜在代码可用于生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略，将文本和结构表示反映到生成的图像中。我们提出的网络可生成逼真的 2D、多视图和风格化面部图像，这些图像与输入很好地对齐。我们通过使用预训练的 2D 和 3D GAN 验证我们的方法，我们的结果优于现有方法。我们的项目页面位于 https://github.com/1211sh/Diffusion-driven_GAN-Inversion/。

Inf-DiT：使用内存高效的扩散变压器对任何分辨率图像进行上采样

分类： 计算机视觉和模式识别

作者： Zhuoyi Yang, Heyang Jiang, Wenyi Hong, Jiayan Teng, Wendi Zheng, Yuxiao Dong, Ming Ding, Jie Tang

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04312v2

摘要： 近年来，扩散模型在图像生成方面表现出了卓越的性能。然而，由于生成超高分辨率图像（例如40964096）过程中内存的二次增加，生成的图像的分辨率往往被限制在10241024。在这项工作中。我们提出了一种单向块注意机制，可以在推理过程中自适应调整内存开销并处理全局依赖性。在此模块的基础上，我们采用DiT结构进行上采样，并开发了能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明，我们的模型在机器和人类评估中生成超高分辨率图像方面均实现了 SOTA 性能。与常用的 UNet 结构相比，我们的模型在生成 4096*4096 图像时可以节省 5 倍以上的内存。项目网址为https://github.com/THUDM/Inf-DiT。

BUDDy：具有扩散模型的单通道盲无监督去混响

分类： 音频和语音处理, 机器学习, 声音

作者： Eloi Moliner, Jean-Marie Lemercier, Simon Welker, Timo Gerkmann, Vesa Välimäki

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04272v1

摘要： 在本文中，我们提出了一种基于扩散模型后验采样的联合盲去混响和房间脉冲响应估计的无监督单通道方法。我们使用每个频率子带具有指数衰减的滤波器来参数化混响算子，并随着语音沿着反向扩散轨迹得到细化而迭代地估计相应的参数。测量一致性标准通过混响测量来强制生成的语音的保真度，而无条件扩散模型则为干净的语音生成实现了强大的先验。在不了解房间脉冲响应或任何耦合混响消声数据的情况下，我们可以在各种声学场景中成功执行去混响。我们的方法显着优于以前的盲无监督基线，并且与盲监督方法相比，我们证明了其对不可见声学条件的鲁棒性增强。音频样本和代码可在线获取。

LTLDoG：满足基于安全扩散的规划的临时扩展符号约束

分类： 机器人技术, 机器学习

作者： Zeyu Feng, Hao Luan, Pranav Goyal, Harold Soh

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04235v1

摘要： 在复杂环境中有效运行并遵守特定约束对于安全、成功部署与人互动并在人周围操作的机器人至关重要。在这项工作中，我们专注于生成在测试时遵循新颖的静态和时间扩展约束/指令的长视野轨迹。我们提出了一种数据驱动的基于扩散的框架 LTLDoG，它修改了给定使用有限线性时序逻辑 ($\text{LTL}_f$) 指定的指令的逆向过程的推理步骤。 LTLDoG 利用 $\text{LTL}_f$ 上的满意度值函数，并使用其梯度场指导采样步骤。该值函数还可以经过训练以泛化到训练期间未观察到的新指令，从而实现灵活的测试时间适应性。机器人导航和操纵实验表明，该方法能够生成满足指定避障和访问序列公式的轨迹。

Vidu：具有扩散模型的高度一致、动态且熟练的文本到视频生成器

分类： 计算机视觉和模式识别, 机器学习

作者： Fan Bao, Chendong Xiang, Gang Yue, Guande He, Hongzhou Zhu, Kaiwen Zheng, Min Zhao, Shilong Liu, Yaole Wang, Jun Zhu

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04233v1

摘要： 我们推出 Vidu，这是一款高性能文本到视频生成器，能够在一次生成中生成长达 16 秒的 1080p 视频。 Vidu 是一种以 U-ViT 为骨干的扩散模型，它释放了可扩展性和处理长视频的能力。 Vidu 表现出很强的连贯性和活力，能够生成现实和富有想象力的视频，并理解一些专业的摄影技术，与 Sora 相媲美——据报道最强大的文本到视频生成器。最后，我们对其他可控视频生成进行了初步实验，包括 canny-to-video 生成、视频预测和主题驱动生成，这些实验证明了有希望的结果。

我们想要的就是一个空房间：室内全景图的自动整理

分类： 计算机视觉和模式识别

作者： Mira Slavcheva, Dave Gausebeck, Kevin Chen, David Buchhofer, Azwad Sabik, Chen Ma, Sachal Dhillon, Olaf Brandt, Alan Dolhasz

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03682v1

摘要： 我们提出了一种利用稳定扩散来改善家具去除情况下的修复效果的管道——从室内全景图像中去除家具物品。具体来说，我们说明了增加的上下文、特定领域的模型微调和改进的图像混合如何能够产生几何上合理的高保真修复，而无需依赖房间布局估计。我们展示了相对于其他家具拆除技术的定性和定量改进。

通过深度生成模型扩展 MRI 的视场

分类： 计算机视觉和模式识别

作者： Chenyu Gao, Shunxing Bao, Michael Kim, Nancy Newlin, Praitayini Kanakaraj, Tianyuan Yao, Gaurav Rudravaram, Yuankai Huo, Daniel Moyer, Kurt Schilling, Walter Kukull, Arthur Toga, Derek Archer, Timothy Hohman, Bennett Landman, Zhiyuan Li

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03652v1

摘要： 目的：在扩散 MRI (dMRI) 中，全脑组织微观结构和连接性的体积和束分析可能会因不完整的视场 (FOV) 而受到严重阻碍。这项工作旨在开发一种方法，直接从具有不完整视场的现有 dMRI 扫描中估算缺失的切片。我们假设具有完整视场的估算图像可以改善具有不完整视场的损坏数据的全脑纤维束成像。因此，我们的方法提供了一种理想的替代方法来丢弃有价值的 dMRI 数据，从而实现后续的纤维束成像分析，否则这些分析将具有挑战性或无法通过损坏的数据实现。方法：我们提出了一个基于深度生成模型的框架，该模型可以估计 FOV 不完整的 dMRI 扫描中缺失的大脑区域。该模型能够学习扩散加权图像 (DWI) 中的扩散特征以及相应结构图像中明显的解剖特征，以便有效地估算不完整 FOV 之外的 DWI 缺失切片。结果：为了评估估算切片，在 WRAP 数据集上，所提出的框架实现了 PSNRb0=22.397、SSIMb0=0.905、PSNRb1300=22.479、SSIMb1300=0.893；在 NACC 数据集上，它实现了 PSNRb0=21.304，SSIMb0=0.892，PSNRb1300=21.599，SSIMb1300= 0.877。所提出的框架提高了纤维束成像的准确性，WRAP 和 NACC 数据集上 72 个纤维束的平均 Dice 得分增加 (p < 0.001) 证明了这一点。结论：结果表明，所提出的框架在 FOV 不完整的 dMRI 数据中实现了足够的插补性能，可改善全脑束成像，从而修复损坏的数据。我们的方法通过扩展和完整的视场获得了更准确的全脑束成像结果，并减少了分析与阿尔茨海默病相关的束时的不确定性。

余弦退火优化去噪扩散纠错码

分类： 信息论, 信息论

作者： Congyang Ou, Xiaojing Chen, Wan Jiang

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03638v1

摘要： 为了解决去噪扩散纠错码线性搜索后期误码率增加的问题，我们提出了一种使用余弦退火优化去噪扩散纠错码（ECC）的新方法。为了应对解码长码字的挑战，该方法在反向扩散过程中采用方差调整策略，而不是保持恒定的方差。该方法利用余弦退火，有效降低误码率，提高解码效率。这封信通过实验广泛验证了该方法，并展示了与现有方法相比在误码率降低和迭代效率方面的显着改进。这一进步为提高 ECC 解码性能提供了一个有前途的解决方案，可能会影响安全数字通信实践。

连接离散和连续状态空间：探索时间连续扩散模型中的 Ehrenfest 过程

分类： 机器学习, 机器学习, 动力系统, 可能性

作者： Ludwig Winkler, Lorenz Richter, Manfred Opper

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03549v1

摘要： 通过随机过程的生成模型带来了显着的实证结果以及理论理解的最新进展。原则上，过程的空间和时间可以是离散的，也可以是连续的。在这项工作中，我们研究离散状态空间上的时间连续马尔可夫跳跃过程，并研究它们与 SDE 给出的状态连续扩散过程的对应关系。特别是，我们重新审视 $\textit{Ehrenfest 过程}$，它在无限状态空间限制下收敛到 Ornstein-Uhlenbeck 过程。同样，我们可以证明埃伦菲斯特过程的时间反转收敛于时间反转的奥恩斯坦-乌伦贝克过程。这种观察将离散状态空间和连续状态空间联系起来，并允许将方法从一种设置转移到相应的另一种设置。此外，我们提出了一种用于训练马尔可夫跳跃过程的时间反转的算法，该算法依赖于条件期望，因此可以与去噪分数匹配直接相关。我们在多个令人信服的数值实验中展示了我们的方法。

CCDM：用于图像生成的连续条件扩散模型

分类： 计算机视觉和模式识别, 机器学习

作者： Xin Ding, Yongwei Wang, Kao Zhang, Z. Jane Wang

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03546v1

摘要： 连续条件生成建模 (CCGM) 旨在估计高维数据（通常是图像）的分布，以称为回归标签的标量连续变量为条件。虽然连续条件生成对抗网络（CcGAN）最初是为此任务设计的，但其对抗训练机制仍然容易受到极其稀疏或不平衡的数据的影响，从而导致结果不理想。为了提高生成图像的质量，一个有前途的替代方案是用条件扩散模型 (CDM) 替代 CcGAN，后者以其稳定的训练过程和生成更真实图像的能力而闻名。然而，由于 U-Net 架构不足和处理回归标签的模型拟合机制不足等限制，现有的 CDM 在应用于 CCGM 任务时遇到了挑战。在本文中，我们介绍了连续条件扩散模型（CCDM），这是第一个专门为 CCGM 任务设计的 CDM。 CCDM 通过引入专门设计的条件扩散过程、具有定制调节机制的改进型去噪 U-Net、用于模型拟合的新型硬邻域损失以及高效的条件采样程序，解决了现有 CDM 的局限性。通过对分辨率从 64x64 到 192x192 不等的四个数据集进行综合实验，我们证明了所提出的 CCDM 相对于最先进的 CCGM 模型的优越性，从而在 CCGM 中建立了新的基准。广泛的消融研究验证了所提出的 CCDM 的模型设计和实现配置。我们的代码可在 https://github.com/UBCDingXin/CCDM 上公开获取。

Westervelt拟线性波动方程的渐近保杂可杂化间断伽辽金法

分类： 数值分析, 数值分析, 偏微分方程分析, 65M60, 65M15, 35L70

作者： Sergio Gómez, Mostafa Meliani

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03535v1

摘要： 我们讨论了超声波 Westervelt 模型的可混合间断伽辽金方法的渐近保持特性。更准确地说，我们通过推导低阶和高阶能量稳定性估计以及 \emph{先验} 误差界限，证明了所提出的方法对于声音扩散阻尼参数 ~~$\delta$ 的小值是鲁棒的独立于~~$\delta$。然后使用这样的界限来表明，当~~$\delta \rightarrow 0^+$时，该方法保持稳定并且离散声速势~~$\psi_h^{(\delta)}$收敛到~~$\psi_h^ {(0)}$，其中后者是奇异消失耗散极限。此外，我们证明了声学粒子速度变量近似的最佳收敛性~~$\bv = \nabla \psi$。通过一些数值实验来说明所建立的理论结果。

用于由参数偏微分方程控制的实验问题的贝叶斯设计的准蒙特卡罗

分类： 数值分析, 数值分析, 65D30, 65D32, 65D40, 62K05, 62F15, 65N21

作者： Vesa Kaarnioja, Claudia Schillings

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03529v1

摘要： 本文致力于研究偏微分方程 (PDE) 控制的贝叶斯逆问题的最优实验设计。我们对贝叶斯优化设计问题中出现的高维参数和数据域上的多元双积分问题的参数规律性进行估计。我们使用两种方法对这些二重积分问题进行了详细分析：参数和数据域上的准蒙特卡罗（QMC）体积规则的全张量积和稀疏张量积组合。具体来说，我们表明后一种方法显着提高了收敛速度，表现出与单个高维积分的 QMC 积分相当的性能。此外，我们在两个空间维度上数值验证了具有未知扩散系数的椭圆偏微分方程问题的预测收敛速率，提供了支持理论结果的经验证据并强调了实际适用性。

LGTM：局部到全局文本驱动的人体运动扩散模型

分类： 计算机视觉和模式识别, 图形

作者： Haowen Sun, Ruikun Zheng, Haibin Huang, Chongyang Ma, Hui Huang, Ruizhen Hu

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03485v1

摘要： 在本文中，我们介绍了 LGTM，一种用于文本到动作生成的新颖的本地到全局管道。 LGTM 采用基于扩散的架构，旨在解决将文本描述准确转换为计算机动画中语义连贯的人体运动的挑战。具体来说，传统方法经常与语义差异作斗争，特别是在将特定动作与正确的身体部位对齐方面。为了解决这个问题，我们提出了一个两阶段的管道来克服这一挑战：它首先采用大型语言模型（LLM）将全局运动描述分解为特定于部分的叙述，然后由独立的身体部分运动编码器进行处理，以确保精确的局部语义对齐。最后，基于注意力的全身优化器细化运动生成结果并保证整体连贯性。我们的实验表明，LGTM 在生成局部准确、语义一致的人体运动方面取得了显着改进，标志着文本到运动应用的显着进步。本文的代码和数据可在 https://github.com/L-Sun/LGTM 获取

通过潜在扩散和先验知识增强时空疾病进展模型

分类： 计算机视觉和模式识别, 人工智能

作者： Lemuel Puglisi, Daniel C. Alexander, Daniele Ravì

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03328v1

摘要： 在这项工作中，我们介绍了脑潜伏进展（BrLP），这是一种基于潜伏扩散的新型时空疾病进展模型。 BrLP 旨在通过 3D 脑部 MRI 预测个体水平的疾病演变。为此任务开发的现有深度生成模型主要是数据驱动的，并且在学习疾病进展方面面临挑战。 BrLP 通过结合疾病模型的先验知识来提高预测的准确性，从而应对这些挑战。为了实现这一点，我们建议集成一个辅助模型来推断各个大脑区域的体积变化。此外，我们还引入了潜在平均稳定（LAS），这是一种提高预测进展时空一致性的新技术。 BrLP 在一个大型数据集上进行训练和评估，该数据集包含来自 2,805 名受试者的 11,730 个 T1 加权脑部 MRI，这些数据来自三项公开的纵向阿尔茨海默病 (AD) 研究。在我们的实验中，我们将 BrLP 生成的 MRI 扫描与受试者获得的实际后续 MRI 进行比较，包括横截面和纵向设置。 BrLP 比现有方法有了显着改进，与 AD 相关的大脑区域的体积精度提高了 22%，与地面实况扫描的图像相似度提高了 43%。 BrLP 在受试者水平上生成条件 3D 扫描的能力，以及整合先验知识以提高准确性的新颖性，代表了疾病进展建模的重大进步，为精准医疗开辟了新途径。 BrLP的代码可在以下链接获取：https://github.com/LemuelPuglisi/BrLP。

激发你的思维：从缓慢的大脑活动中解耦重建动态自然视觉

分类： 计算机视觉和模式识别, 人工智能

作者： Yizhuo Lu, Changde Du, Chong Wang, Xuanliu Zhu, Liuyun Jiang, Huiguang He

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03280v1

摘要： 从大脑活动重建人类动态视觉是一项具有挑战性的任务，具有重大的科学意义。这一困难源于两个主要问题：（1）大脑中的视觉处理机制非常复杂且尚未完全揭示，这使得直接学习功能磁共振成像和视频之间的映射具有挑战性；（2）fMRI的时间分辨率明显低于自然视频。为了克服这些问题，本文提出了一种名为 Mind-Animator 的两阶段模型，它在三个公共数据集上实现了最先进的性能。具体来说，在功能磁共振成像到特征阶段，我们通过功能磁共振成像-视觉-语言三模态对比学习和稀疏因果注意力将语义、结构和运动特征与功能磁共振成像分离。在特征到视频阶段，这些特征通过膨胀的稳定扩散合并到视频中。我们通过排列测试证实，重建的视频动态确实源自功能磁共振成像，而不是生成模型的幻觉。此外，体素和 ROI 重要性图的可视化证实了我们模型的神经生物学可解释性。

DreamScene4D：从单目视频生成动态多对象场景

分类： 计算机视觉和模式识别

作者： Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02280v1

摘要： 现有的 VLM 可以跟踪野外 2D 视频对象，而当前的生成模型提供强大的视觉先验，用于合成高度欠约束的 2D 到 3D 对象提升的新颖视图。在这一令人兴奋的进展的基础上，我们推出了 DreamScene4D，这是第一种可以从单眼野外视频生成多个对象的三维动态场景的方法，这些视频具有跨越遮挡和新颖视点的大对象运动。我们的主要见解是设计一种“分解然后重组”方案来分解整个视频场景和每个对象的 3D 运动。我们首先使用开放词汇掩模跟踪器和自适应图像扩散模型来分解视频场景，以分割、跟踪和非模态地完成视频中的对象和背景。每个对象轨迹都映射到一组在空间和时间上变形和移动的 3D 高斯曲线。我们还将观察到的运动分解为多个分量以处理快速运动。可以通过重新渲染背景以匹配视频帧来推断相机运动。对于对象运动，我们首先通过利用以对象为中心的框架中的渲染损失和多视图生成先验来对对象的以对象为中心的变形进行建模，然后通过将渲染输出与世界框架转换进行比较来优化以对象为中心到世界框架的转换。感知像素和光流。最后，我们重新组合背景和物体，并使用单目深度预测指导优化相对物体尺度。我们展示了具有挑战性的戴维斯、库布里克和自拍视频的广泛结果，详细说明了一些限制，并提供了未来的方向。除了 4D 场景生成之外，我们的结果表明，DreamScene4D 通过将推断的 3D 轨迹投影到 2D 来实现精确的 2D 点运动跟踪，但从未明确训练过这样做。

用于自动驾驶轨迹预测的特征扩散和时空交互网络

分类： 机器人技术

作者： Haicheng Liao, Xuelin Li, Yongkang Li, Hanlin Kong, Chengyue Wang, Bonan Wang, Yanchen Guan, KaHou Tam, Zhenning Li, Chengzhong Xu

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02145v1

摘要： 轨迹预测是自动驾驶 (AD) 的基石，在使车辆在动态环境中安全高效地导航方面发挥着关键作用。为了解决这一任务，本文提出了一种新颖的轨迹预测模型，可在面对异构和不确定的交通场景时提高准确性。该模型的核心是特征扩散模块，这是一个创新模块，旨在模拟具有固有不确定性的交通场景。该模块通过注入详细的语义信息来丰富预测过程，从而提高轨迹预测的准确性。作为补充，我们的时空 (ST) 交互模块可以捕获交通场景对空间和时间维度上的车辆动态的细微影响，并具有显着的有效性。经过详尽的评估，我们的模型在轨迹预测方面树立了新标准，在下一代仿真（NGSIM）、高速公路无人机（HighD）和澳门互联自动驾驶（MoCAD）上取得了最先进（SOTA）的结果跨短期和长期时间跨度的数据集。这一性能凸显了该模型在复杂交通场景（包括高速公路、城市街道和十字路口）导航方面无与伦比的适应性和功效。

DiffMap：使用扩散模型通过地图先验增强地图分割

分类： 计算机视觉和模式识别

作者： Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02008v1

摘要： 构建高清（HD）地图是实现自动驾驶的关键要求。近年来，利用鸟瞰图 (BEV) 感知的进步，开发了多种地图分割算法来满足这一需求。然而，现有模型在生成真实且一致的语义地图布局方面仍然遇到挑战。一个突出的问题是地图分割掩模中固有的结构化先验的利用有限。鉴于此，我们提出了 DiffMap，这是一种专门设计用于使用潜在扩散模型对地图分割掩模的结构化先验进行建模的新颖方法。通过结合该技术，可以显着增强现有语义分割方法的性能，并且可以有效地纠正分割输出中存在的某些结构错误。值得注意的是，所提出的模块可以无缝集成到任何地图分割模型中，从而增强其准确描绘语义信息的能力。此外，通过广泛的可视化分析，我们的模型在生成更准确地反映现实世界地图布局的结果方面表现出了卓越的能力，进一步验证了其在提高生成地图质量方面的功效。

助听器中的实时多通道深度语音增强：比较复杂声学场景中的单耳和双耳处理

分类： 音频和语音处理, 声音

作者： Nils L. Westhausen, Hendrik Kayser, Theresa Jansen, Bernd T. Meyer

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01967v1

摘要： 深度学习有潜力增强语音信号并提高助听器用户的清晰度。适合实际应用的深度模型应具有较低的计算复杂度和仅几毫秒的低处理延迟。在本文中，我们探索了满足这些要求的深度语音增强，并在两个复杂的声学场景中对比单耳和双耳处理算法。这两种算法都通过客观指标进行评估，并在听力受损的听众进行噪声中语音测试的实验中进行评估。将结果与两种传统的增强策略（即自适应差分麦克风处理和双耳波束形成）进行比较。虽然在扩散噪声中，所有算法的表现都相似，但双耳深度学习方法在存在空间干扰的情况下表现最佳。通过事后分析，这可以归因于低信噪比下的改进和精确的空间滤波。

非局部问题的 Schwarz 方法

分类： 数值分析, 数值分析, 45P05, 45A99, 65R99

作者： Matthias Schuster, Christian Vollmann, Volker Schulz

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01905v1

摘要： 第一个偏微分方程的域分解方法由 H. A. Schwarz 于 1870 年开发。这里我们考虑一个具有可变系数的非局部狄利克雷问题，其中使用了非局部扩散算子。我们发现，像所谓的 Schwarz 方法这样的域分解方法似乎是解决这些非局部问题的自然方法。在这项工作中，我们展示了非局部问题的收敛性，其中使用了特定的对称核，并介绍了乘法和加法 Schwarz 算法在上述非局部设置中的实现。

利用扩散先验生成缺陷图像样本，用于钢表面缺陷识别

分类： 计算机视觉和模式识别

作者： Yichun Tai, Kun Yang, Tao Peng, Zhenzhen Huang, Zhijiang Zhang

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01872v1

摘要： 钢材表面缺陷识别任务是一个具有重大行业价值的行业难题。数据不足是训练鲁棒缺陷识别网络的主要挑战。现有方法已经研究通过使用生成模型生成样本来扩大数据集。然而，它们的生成质量仍然受到缺陷图像样本不足的限制。为此，我们提出了稳定表面缺陷生成（StableSDG），它将稳定扩散模型中嵌入的巨大生成分布转移到钢表面缺陷图像生成中。为了解决钢材表面图像和扩散模型生成的图像之间的独特分布差距，我们提出了两个过程。首先，我们通过调整令牌嵌入空间和网络参数空间中采用的扩散模型的参数来对齐分布。此外，在生成过程中，我们提出面向图像的生成，而不是纯粹的高斯噪声生成。我们对钢材表面缺陷数据集进行了广泛的实验，展示了生成高质量样本和训练识别模型的最先进性能，并且这两种设计的流程对于性能都很重要。

使用稳定扩散防御对抗性攻击的新方法

分类： 机器学习

作者： Trinath Sai Subhash Reddy Pittala, Uma Maheswara Rao Meleti, Geethakrishna Puligundla

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01838v1

摘要： 对抗性机器学习的最新发展凸显了构建强大的人工智能系统以防范日益复杂的攻击的重要性。虽然 AI Guardian 等框架旨在防御这些威胁，但它们通常依赖于可能限制其有效性的假设。例如，他们可能假设攻击仅来自一个方向，或者在训练数据中包含对抗性图像。我们的提案提出了一种不同的 AI Guardian 框架方法。我们建议在没有对抗性样本的情况下训练人工智能系统，而不是在训练过程中包含对抗性样本。其目的是创建一个本质上能够抵御更广泛攻击的系统。我们的方法侧重于使用稳定扩散的动态防御策略，该策略可以持续学习并全面模拟威胁。我们相信这种方法可以带来更普遍、更强大的对抗性攻击防御。在本文中，我们概述了我们提出的方法，包括理论基础、实验设计以及对提高人工智能安全性抵御对抗性威胁的预期影响。

使用生成式人工智能创建新型软机器人设计

分类： 机器人技术, 人工智能

作者： Wee Kiat Chan, PengWei Wang, Raye Chen-Hua Yeow

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01824v1

摘要： 软机器人技术已成为一个充满前景的领域，有可能彻底改变医疗保健和制造业等行业。然而，设计有效的软机器人面临着挑战，特别是在管理材料特性、结构设计和控制策略的复杂相互作用方面。传统的设计方法通常非常耗时，并且可能无法产生最佳设计。在本文中，我们探索使用生成式人工智能来创建软执行器的 3D 模型。我们创建了包含 70 多个文本形状配对的软气动机器人执行器设计的数据集，并采用潜在扩散模型 (SDFusion) 来学习数据分布并从中生成新颖的设计。通过采用迁移学习和数据增强技术，我们显着提高了扩散模型的性能。这些发现凸显了生成式人工智能在设计复杂软机器人系统方面的潜力，为该领域的未来发展铺平了道路。

关于学习医学图像统计的深度生成模型 AAPM 大挑战的报告

分类： 图像和视频处理, 计算机视觉和模式识别, 医学物理

作者： Rucha Deshpande, Varun A. Kelkar, Dimitrios Gotsis, Prabhat Kc, Rongping Zeng, Kyle J. Myers, Frank J. Brooks, Mark A. Anastasio

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01822v1

摘要： 本特别报告报告了 2023 年 AAPM 学习医学图像统计深度生成模型重大挑战赛的结果。本次挑战赛的目标是促进医学成像深度生成模型 (DGM) 的发展，并强调通过分析相关图像统计数据进行领域相关评估的必要性。作为本次大挑战的一部分，我们基于 VICTRE 虚拟成像工具箱中的 3D 拟人化乳房模型开发了训练数据集。开发了一个两阶段评估程序，包括对记忆和图像质量的初步检查（基于弗雷切起始距离（FID）），以及评估与领域相关放射组学特征相对应的图像统计的再现性的第二阶段。采用汇总措施对提交的内容进行排名。对提交的内容进行了额外的分析，以评估特定于各个功能系列的 DGM 性能，并识别各种工件。本次挑战赛共收到 12 位不同用户提交的 58 份意见书。排名第一的提交作品采用了条件潜在扩散模型，而并列亚军则采用了生成对抗网络，其次是另一个用于图像超分辨率的网络。我们观察到，根据我们的评估方法，前 9 名提交的总体排名 (i) 与基于 FID 的排名不匹配，(ii) 各个特征系列有所不同。我们额外分析的另一个重要发现是，不同的 DGM 表现出类似的工件。这一重大挑战强调了对特定领域的评估的必要性，以进一步推进 DGM 设计和部署。它还表明，DGM 的规格可能会根据其预期用途而有所不同。

CGD：用于无人机轨迹规划的约束引导扩散策略

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Kota Kondo, Andrea Tagliabue, Xiaoyi Cai, Claudius Tewari, Olivia Garcia, Marcos Espitia-Alvarez, Jonathan P. How

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01758v1

摘要： 传统的基于优化的规划器虽然有效，但计算成本较高，导致轨迹生成缓慢。减少计算时间的成功策略涉及使用模仿学习 (IL) 从那些被视为专家演示者的规划者中开发快速神经网络 (NN) 策略。尽管由此产生的神经网络策略能够有效地快速生成类似于专家的轨迹，但（1）它们的输出没有明确考虑动态可行性，（2）这些策略不适应与训练期间使用的约束不同的变化。为了克服这些限制，我们提出了约束引导扩散（CGD），这是一种基于 IL 的新型轨迹规划方法。 CGD 利用混合学习/在线优化方案，将扩散策略与代理高效优化问题相结合，从而能够生成无碰撞、动态可行的轨迹。 CGD 的关键思想包括将专家解决的原始具有挑战性的优化问题分为两个更易于管理的子问题：（a）有效地找到无碰撞路径，以及（b）为这些路径确定动态可行的时间参数化获得轨迹。与传统的神经网络架构相比，我们通过数值评估证明了在训练期间从未遇到新约束的情况下性能和动态可行性的显着改进。

使用单个图像对自定义文本到图像模型

分类： 计算机视觉和模式识别, 图形, 机器学习

作者： Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01536v1

摘要： 艺术重新诠释是对参考作品进行变体的实践，制作出展现独特艺术风格的配对艺术品。我们询问是否可以使用这样的图像对来定制生成模型以捕获所展示的风格差异。我们提出了配对定制，这是一种新的定制方法，可以从单个图像对中学习风格差异，然后将获得的风格应用于生成过程。与学习从图像集合中模仿单个概念的现有方法不同，我们的方法捕获了配对图像之间的风格差异。这使我们能够应用风格改变，而不会过度拟合示例中的特定图像内容。为了解决这个新任务，我们采用了一种联合优化方法，将样式和内容显式地分离到不同的 LoRA 权重空间中。我们优化这些样式和内容权重以重现样式和内容图像，同时鼓励它们的正交性。在推理过程中，我们根据学习到的权重，通过新的风格指导来修改扩散过程。定性和定量实验都表明，我们的方法可以有效地学习风格，同时避免过度拟合图像内容，突出了从单个图像对建模此类风格差异的潜力。

LocInv：用于文本引导图像编辑的本地化感知反转

分类： 计算机视觉和模式识别

作者： Chuanming Tang, Kai Wang, Fei Yang, Joost van de Weijer

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01496v1

摘要： 大规模文本到图像 (T2I) 扩散模型展示了基于文本提示的重要生成能力。基于 T2I 扩散模型，文本引导图像编辑研究旨在使用户能够通过改变文本提示来操作生成的图像。然而，现有的图像编辑技术很容易编辑超出预期目标区域的无意区域，这主要是由于交叉注意力图的不准确。为了解决这个问题，我们提出了本地化感知反转（LocInv），它利用分割图或边界框作为额外的本地化先验，以在扩散过程的去噪阶段细化交叉注意力图。通过动态更新与文本输入中的名词词相对应的标记，我们迫使交叉注意力图与文本提示中的正确名词和形容词紧密结合。基于这种技术，我们实现了对特定对象的细粒度图像编辑，同时防止对其他区域进行不需要的更改。我们的方法 LocInv 基于公开的 Stable Diffusion，在 COCO 数据集的子集上进行了广泛的评估，并始终在定量和定性方面获得了优异的结果。代码将在 https://github.com/wangkai930418/DPL 发布

使用扩散模型解决一次性联邦学习中的异构性和隐私问题

分类： 计算机视觉和模式识别, 密码学和安全, 机器学习

作者： Matias Mendieta, Guangyu Sun, Chen Chen

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01494v1

摘要： 联邦学习 (FL) 使多个客户端能够共同训练模型，同时保护数据隐私。然而，FL面临着通信成本和数据异构性方面的挑战。一次性联邦学习已经成为一种解决方案，它可以减少通信次数、提高效率并提供更好的安全性来抵御窃听攻击。尽管如此，数据异构性仍然是一个重大挑战，影响着性能。这项工作探讨了一次性 FL 中扩散模型的有效性，证明了它们在解决数据异质性和提高 FL 性能方面的适用性。此外，我们还研究了扩散模型方法 FedDiff 与差分隐私 (DP) 下的其他一次性 FL 方法的实用性。此外，为了提高 DP 设置下生成的样本质量，我们提出了一种实用的傅里叶幅度滤波（FMF）方法，增强了生成数据用于全局模型训练的有效性。

StoryDiffusion：用于长距离图像和视频生成的一致自注意力

分类： 计算机视觉和模式识别

作者： Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01434v1

摘要： 对于最近基于扩散的生成模型，在一系列生成的图像中保持一致的内容，特别是那些包含主题和复杂细节的图像，提出了重大挑战。在本文中，我们提出了一种新的自注意力计算方法，称为一致性自注意力，它显着提高了生成图像之间的一致性，并以零样本方式增强了流行的基于预训练扩散的文本到图像模型。为了将我们的方法扩展到远程视频生成，我们进一步引入了一种新颖的语义空间时间运动预测模块，称为语义运动预测器。它被训练来估计语义空间中两个提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频，比仅基于潜在空间的模块更加稳定，特别是在长视频生成的情况下。通过合并这两个新颖的组件，我们的框架（称为 StoryDiffusion）可以描述基于文本的故事，其中包含包含丰富内容的一致图像或视频。拟议的 StoryDiffusion 涵盖了通过图像和视频的呈现来生成视觉故事的开创性探索，我们希望这能够从建筑修改方面激发更多的研究。我们的代码已在 https://github.com/HVision-NKU/StoryDiffusion 上公开发布。

进出：凸体采样的算法扩散

分类： 数据结构和算法, 机器学习, 统计理论, 机器学习, 统计理论

作者： Yunbum Kook, Santosh S. Vempala, Matthew S. Zhang

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01425v1

摘要： 我们提出了一种新的随机游走，用于均匀采样高维凸体。它实现了最先进的运行时复杂性，对输出的保证比以前已知的更强，即 R'enyi 散度（这意味着 TV、$\mathcal{W}_2$、KL、$\chi^2$ ）。该证明与该问题的多时间算法的已知方法不同——我们利用随机扩散视角来显示目标分布的收缩，收敛速度由稳态密度的函数等周常数确定。

低频扩散数据的统计算法：偏微分方程方法

分类： 方法, 数值分析, 数值分析, 统计理论, 计算, 统计理论, Primary 62M15, secondary 62F15, 62G05

作者： Matteo Giordano, Sven Wang

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01372v1

摘要： 我们考虑从低频数据在多维扩散模型中进行非参数推理的问题。由于可能性及其梯度的棘手性，这种情况下的统计分析是出了名的具有挑战性，并且迄今为止的计算方法主要依赖于昂贵的基于模拟的技术。在本文中，我们提出了一种新的计算方法，该方法受偏微分方程理论的启发，并围绕转变密度的表征作为相关热（福克-普朗克）方程的解而构建。利用抛物线偏微分方程理论的最佳规律性结果，我们证明了似然梯度的新颖表征。利用这些进展，对于恢复扩散率的非线性反问题（以散度形式模型），我们表明，似然及其梯度的数值评估可以简化为标准椭圆特征值问题，可以通过强大的有限元方法求解。这使得能够有效实现一大类统计算法，包括（i）用于后验采样的预处理 Crank-Nicolson 和 Langevin 型方法，以及（ii）用于计算最大似然和最大后验的基于梯度的下降优化方案估计。我们通过在具有高斯过程先验的非参数贝叶斯模型中进行广泛的模拟研究来展示这些方法的有效性。有趣的是，优化方案提供了令人满意的数值恢复，同时表现出向驻点的快速收敛，尽管存在非线性问题。因此，我们的方法可能会显着提高计算速度。可重现的代码可在线获取：https://github.com/MattGiord/LF-Diffusion。

DiffusionPipe：使用高效管道训练大型扩散模型

分类： 分布式、并行和集群计算

作者： Ye Tian, Zhen Jia, Ziyue Luo, Yida Wang, Chuan Wu

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01248v1

摘要： 扩散模型已成为图像生成的主要执行者。为了支持训练大型扩散模型，本文研究了扩散模型的管道并行训练，提出了一种同步管道训练系统DiffusionPipe，该系统倡导创新的管道气泡填充技术，迎合扩散模型的结构特点。最先进的扩散模型通常包括可训练（骨干）和不可训练（例如，冻结输入编码器）部分。我们首先使用动态规划方法统一代表性扩散模型中单个和多个主干的最佳阶段划分和管道调度。然后，我们建议通过高效的贪心算法将不可训练模型部分的计算填充到主干管道训练的空闲周期中，从而实现高训练吞吐量。大量实验表明，DiffusionPipe 可以比管道并行方法实现高达 1.41 倍的加速，比流行扩散模型上的数据并行训练实现高达 1.28 倍的加速。

使用扩散模型在图像中自动进行虚拟产品放置和评估

分类： 计算机视觉和模式识别

作者： Mohammad Mahmudul Alam, Negin Sokhandan, Emmett Goodman

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01130v1

摘要： 在虚拟产品布局 (VPP) 应用中，将特定品牌产品离散集成到图像或视频中已成为一项具有挑战性但重要的任务。本文介绍了一种新型三级全自动 VPP 系统。在第一阶段，语言引导的图像分割模型识别图像中用于产品修复的最佳区域。在第二阶段，使用一些示例产品图像进行微调的稳定扩散（SD）将产品修复到先前识别的候选区域中。最后阶段引入了“对齐模块”，旨在有效筛选出低质量图像。综合实验表明，对齐模块可确保每张生成的图像中都存在目标产品，并将图像的平均质量提高 35%。本文提出的结果证明了所提出的 VPP 系统的有效性，该系统在改变虚拟广告和营销策略的格局方面具有巨大的潜力。

基于文本的生成式深度学习模型，用于 VIS-NIR (400-2499 nm) 频段的土壤反射光谱模拟

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 图像和视频处理

作者： Tong Lei, Brian N. Bailey

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01060v1

摘要： 模拟土壤反射光谱对于土壤-植物辐射建模和训练机器学习模型非常有价值，但由于土壤结构及其成分之间的复杂关系，模拟土壤反射光谱非常困难。为了解决这个问题，开发了一种完全数据驱动的土壤光学生成模型（SOGM），用于基于土壤特性输入模拟土壤反射光谱。该模型在广泛的数据集上进行训练，其中包括来自 17 个数据集的近 180,000 个土壤光谱-属性对。它根据描述土壤特性及其值的文本输入生成土壤反射光谱，而不仅仅是二进制矢量格式的数值和标签。生成模型可以根据一组不完整的输入属性来模拟输出光谱。 SOGM 基于去噪扩散概率模型 (DDPM)。还建立了两个额外的子模型来补充 SOGM：一个光谱填充模型，可以填补短于整个可见光-近红外范围（VIS-NIR；400 至 2499 nm）的光谱空白，以及一个湿土壤模型光谱模型，可以根据 SOGM 预测的干燥光谱来估计含水量对土壤反射光谱的影响。 SOGM 通过与 Helios 3D 植物建模软件结合进行了升级，该软件可以生成模拟土壤和植物场景的合成航空图像。它还可以轻松地与用于遥感研究的土壤-植物辐射模型（如 PROSAIL）集成。 SOGM在模型训练中未包含的新数据集上的测试结果证明，该模型可以根据可用的属性输入生成合理的土壤反射光谱。所提出的模型可在以下网址公开访问：https://github.com/GEMINI-Breeding/SOGM_soil_spectra_simulation。

文本到图像生成模型中的机械知识本地化

分类： 计算机视觉和模式识别

作者： Samyadeep Basu, Keivan Rezaei, Ryan Rossi, Cherry Zhao, Vlad Morariu, Varun Manjunatha, Soheil Feizi

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01008v1

摘要： 识别文本到图像模型中控制视觉属性的图层可以通过封闭形式更新促进高效的模型编辑。最近的工作利用因果追踪表明，早期的稳定扩散变体主要将知识限制在 CLIP 文本编码器的第一层，而它在整个 UNet 中扩散。扩展此框架，我们观察到对于最近的模型（例如 SD-XL），DeepFloyd），因果追踪未能精确定位本地化知识，凸显了模型编辑中的挑战。为了解决这个问题，我们在文本到图像模型中引入了机械本地化的概念，其中有关各种视觉属性（例如“风格”、“对象”、“事实”）的知识可以机械地本地化到我们使用 LocoGen 方法来本地化知识，该方法通过对 UNet 的交叉注意层进行干预来测量中间层对输出生成的直接影响，然后我们使用 LocoEdit，跨流行的开源文本到图像模型（包括最新的 SD-XL）的快速封闭形式编辑方法，并探索神经元级模型编辑的可能性，使用机械本地化，我们的工作提供了更好的成功视角。基于本地化的文本到图像模型编辑失败。代码可在 \href{https://github.com/samyadeepbasu/LocoGen}{https://github.com/samyadeepbasu/LocoGen} 获取。

TexSliders：CLIP 空间中基于扩散的纹理编辑

分类： 图形, 计算机视觉和模式识别

作者： Julia Guerrero-Viu, Milos Hasan, Arthur Roullier, Midhun Harikumar, Yiwei Hu, Paul Guerrero, Diego Gutierrez, Belen Masia, Valentin Deschaintre

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00672v1

摘要： 生成模型可以使用自然语言进行直观的图像创建和操作。特别是，扩散模型最近在自然图像编辑方面显示出了显着的效果。在这项工作中，我们建议应用扩散技术来编辑纹理，这是一种特定类别的图像，是 3D 内容创建流程的重要组成部分。我们分析了现有的编辑方法，并表明它们并不直接适用于纹理，因为它们常见的底层方法（操作注意图）不适合纹理领域。为了解决这个问题，我们提出了一种新颖的方法，它可以操纵 CLIP 图像嵌入来调节扩散生成。我们使用简单的文本提示（例如，“老化木材”到“新木材”）定义编辑方向，并使用纹理先验将它们映射到 CLIP 图像嵌入空间，并使用基于采样的方法为我们提供 CLIP 空间中的身份保留方向。为了进一步改进身份保留，我们将这些方向投影到 CLIP 子空间，以最大限度地减少由纠缠纹理属性引起的身份变化。我们的编辑管道有助于仅使用自然语言提示创建任意滑块，而无需真实的注释数据。

RGB$\leftrightarrow$X：使用材质和光照感知扩散模型进行图像分解和合成

分类： 计算机视觉和模式识别, 图形

作者： Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, Miloš Hašan

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00666v1

摘要： 真实正向渲染、每像素反向渲染和生成图像合成这三个领域可能看起来像是图形和视觉的独立且不相关的子领域。然而，最近的工作已经证明基于扩散架构改进了对每像素固有通道（反照率、粗糙度、金属度）的估计；我们称之为 RGB$\rightarrow$X 问题。我们进一步表明，在给定固有通道 X$\rightarrow$RGB 的情况下合成真实图像的逆问题也可以在扩散框架中得到解决。着眼于内部场景的图像域，我们引入了一种改进的 RGB$\rightarrow$X 扩散模型，该模型还估计光照，以及第一个能够从（完整或完整）合成真实图像的扩散 X$\rightarrow$RGB 模型。部分）内在通道。我们的 X$\rightarrow$RGB 模型探索了传统渲染和生成模型之间的中间立场：我们可以仅指定应遵循的某些外观属性，并给予模型自由来幻觉其余部分的合理版本。这种灵活性使得混合使用可用通道不同的异构训练数据集成为可能。我们使用多个现有数据集，并用我们自己的合成和真实数据扩展它们，从而产生一个能够比以前的工作更好地提取场景属性并生成高度逼真的内部场景图像的模型。

基于深度度量学习的分布外检测与综合异常值暴露

分类： 计算机视觉和模式识别

作者： Assefa Seyoum Wahd

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00631v1

摘要： 在本文中，我们提出了一种新颖的方法，该方法结合了深度度量学习和使用扩散模型进行分布外（OOD）检测的合成数据生成。 OOD 检测的一种流行方法是异常值暴露，其中使用分布内 (ID) 样本和“可见”OOD 样本的混合来训练模型。对于 OOD 样本，训练模型以最小化输出之间的 KL 散度在本文中，我们提出了一种标签混合方法，使用去噪扩散概率模型 (DDPM) 生成合成 OOD 数据。此外，我们还探讨了度量方面的最新进展。在实验中，我们发现基于度量学习的损失函数比 softmax 表现更好。此外，使用生成的 OOD 数据进行训练时，基线模型（包括 softmax 和度量学习）显示出显着的改进。我们的方法优于传统 OOD 检测指标的强大基线。

使用扩散模型进行车道分段细化

分类： 计算机视觉和模式识别

作者： Antonio Ruiz, Andrew Melnik, Dong Wang, Helge Ritter

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00620v1

摘要： 车道图是构建高清 (HD) 地图的关键组件，对于自动驾驶或导航规划等下游任务至关重要。此前，He 等人。 (2022) 探索了利用基于分割的方法从航空图像中提取车道级图。然而，分割网络很难实现完美的分割掩模，导致车道图提取不准确。我们探索了额外的增强功能来完善这种基于分割的方法，并通过扩散概率模型（DPM）组件对其进行扩展。这种组合进一步提高了非交叉区域无向图中的 GEO F1 和 TOPO F1 分数，这是车道图质量的关键指标。我们在公开可用的数据集上进行了实验，证明我们的方法优于以前的方法，特别是在增强此类图的连接性方面（通过 TOPO F1 分数衡量）。此外，我们对我们方法的各个组成部分进行消融研究，以了解它们的贡献并评估它们的有效性。

让嵌入空间井井有条：用于森林监测的域自适应回归

分类： 计算机视觉和模式识别

作者： Sizhuo Li, Dimitri Gominski, Martin Brandt, Xiaoye Tong, Philippe Ciais

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00514v1

摘要： 图像级回归是地球观测中的一项重要任务，其中视觉域和标签偏移是阻碍泛化的核心挑战。然而，由于缺乏合适的数据集，遥感数据的跨域回归仍然没有得到充分研究。我们引入了一个新的数据集，其中包含五个国家的航空和卫星图像，以及三个与森林相关的回归任务。为了匹配现实世界的应用兴趣，我们通过限制性设置来比较方法，其中在训练期间没有目标领域的先验信息，并且在测试期间使用有限的信息来调整模型。基于有序关系概括得更好的假设，我们提出回归的流形扩散作为低数据状态下转导的强大基线。我们的比较突出了归纳法和转导法在跨域回归中的比较优势。

惰性层使微调的扩散模型更可追踪

分类： 计算机视觉和模式识别, 密码学和安全

作者： Haozhe Liu, Wentian Zhang, Bing Li, Bernard Ghanem, Jürgen Schmidhuber

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00466v1

摘要： 基础生成模型应该是可追溯的，以保护其所有者并促进安全监管。为了实现这一目标，传统方法嵌入基于监控触发响应信号的标识符，这通常称为后门水印。当使用非触发数据对模型进行微调时，它们很容易失败。我们的实验表明，该漏洞是由于微调期间仅少数“繁忙”层的能量变化造成的。这产生了一种新颖的任意输入任意输出（AIAO）策略，使水印能够适应基于微调的删除。 AIAO样本跨不同神经网络深度的触发响应对可用于构造水印子路径，采用蒙特卡罗采样来获得稳定的验证结果。此外，与现有的为扩散模型的输入/输出空间设计后门的方法不同，在我们的方法中，我们建议将后门嵌入到采样子路径的特征空间中，其中提出了掩模控制的触发函数来保留生成性能并确保嵌入式后门的不可见性。我们对 MS-COCO、AFHQ、LSUN、CUB-200 和 DreamBooth 数据集的实证研究证实了 AIAO 的稳健性；虽然其他基于触发的方法的验证率在微调后从 ~90% 下降到 ~70%，但我们的方法的验证率始终保持在 90% 以上。

基于参考的图像超分辨率的细节增强框架

分类： 计算机视觉和模式识别

作者： Zihan Wang, Ziliang Xiong, Hongying Tang, Xiaobing Yuan

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00431v1

摘要： 近年来，基于参考的图像超分辨率（Ref-SR）蓬勃发展。通过将高分辨率（HR）参考图像导入单图像超分辨率（SISR）方法，在从参考图像转移的纹理的帮助下，这一长期存在的领域的不适定性质得到了缓解。尽管定量和定性结果的显着改进验证了 Ref-SR 方法的优越性，但纹理传输之前存在的未对准表明性能还有进一步改进的空间。现有方法往往忽略比较中细节的重要性，因此无法充分利用低分辨率（LR）图像中包含的信息。在本文中，我们提出了一种基于参考的超分辨率的细节增强框架（DEF），它引入了扩散模型来生成和增强 LR 图像中的底层细节。如果参考图像中存在相应的部分，我们的方法可以促进严格的对齐。在参考图像缺少对应部分的情况下，保证了根本性的改善，同时避免了参考图像的影响。大量的实验表明，我们提出的方法在保持可比较的数值结果的同时实现了卓越的视觉结果。

使用分层扩散画笔简化图像编辑

分类： 计算机视觉和模式识别

作者： Peyman Gholami, Robert Xiao

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00313v1

摘要： 去噪扩散模型最近作为各种图像生成和操作任务的强大工具而受到关注。在此基础上，我们提出了一种用于实时编辑图像的新颖工具，除了现有的基于提示的控件之外，它还为用户提供细粒度的区域目标监督。我们的新颖编辑技术被称为分层扩散画笔，利用中间去噪步骤的提示引导和区域目标改变，实现精确修改，同时保持输入图像的完整性和上下文。我们提供了一个基于分层扩散画笔修改的编辑器，它融合了众所周知的图像编辑概念，例如图层蒙版、可见性切换和图层的独立操作；无论他们的顺序如何。我们的系统使用高端消费级 GPU 在 140 毫秒内渲染 512x512 图像的单次编辑，从而实现实时反馈和快速探索候选编辑。我们通过涉及自然图像（使用反转）和生成图像的用户研究验证了我们的方法和编辑系统，与 InstructPix2Pix 和稳定扩散修复等用于细化图像的现有技术相比，展示了其可用性和有效性。我们的方法展示了一系列任务的有效性，包括对象属性调整、错误纠正以及基于顺序提示的对象放置和操作，展示了其多功能性和增强创意工作流程的潜力。

具有可逆反应的非结构化网格反应-漂移-扩散主方程

分类： 数值分析, 数值分析, 92C45, 65M75, 65C05, 65M08

作者： Ying Zhang, Samuel A. Isaacson

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00283v1

摘要： 我们开发了一种收敛反应-漂移-扩散主方程（CRDDME），以促进反应过程的研究，在该反应过程中，由于一般域几何形状内的单体势场，空间传输受到漂移的影响。广义的CRDDME是通过两个步骤得到的。我们首先推导出可逆扩散的非结构化网格跳跃过程近似，从而能够模拟由于偏向粒子运动的保守场而产生漂移的漂移扩散过程。利用边缘平均有限元方法，我们的方法保留了平衡时漂移扩散通量的详细平衡，并保留了在非结构化网格上经历漂移扩散的粒子的平衡吉布斯-玻尔兹曼分布。接下来，我们为 $\textrm{A} + \textrm{B} \leftrightarrow \textrm{C}$ 形式的可逆反应制定一个基于空间连续体积反应粒子的反应漂移扩散模型。该模型中使用有限体积离散化来生成反应项的跳跃过程近似值。开发离散化是为了确保组合的反应-漂移-扩散跳跃过程近似与保持平衡的反应通量的详细平衡一致，并支持连续平衡状态的离散版本。新的 CRDDME 模型代表了对基础体积反应性模型的连续时间离散空间跳跃过程的近似。我们通过大量数值示例证明了新 CRDDME 的收敛性和准确性，并说明了其在 T 细胞信号传导中膜蛋白受体动力学理想化模型中的应用。

ASAM：通过对抗性调整增强分段任何模型

分类： 计算机视觉和模式识别

作者： Bo Li, Haoke Xiao, Lv Tang

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00256v1

摘要： 在不断发展的计算机视觉领域，基础模型已成为关键工具，表现出对无数任务的卓越适应性。其中，Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现出色。然而，SAM 与其同类产品一样，在特定的利基应用中遇到了限制，促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM，这是一种通过对抗性调整来增强 SAM 性能的新颖方法。受到自然语言处理中成功实施的启发，我们利用了自然对抗示例的潜力。通过利用稳定的扩散模型，我们扩充了 SA-1B 数据集的子集 (1%)，生成更能代表自然变化而不是传统的难以察觉的扰动的对抗实例。我们的方法保持了对抗性示例的真实感，并确保与原始掩模注释保持一致，从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中展示了显着的改进，而无需额外的数据或架构修改。我们广泛评估的结果证实，ASAM 在分割任务中建立了新的基准，从而有助于计算机视觉基础模型的进步。我们的项目页面位于 https://asam2024.github.io/。